Wh

Whisper JAX

基础大模型

Whisper JAX

发布时间: 2023-04-14

模型参数(Parameters)
15.5
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

2K tokens

最长输出结果
未披露
模型类型

基础大模型

发布时间

2023-04-14

模型预文件大小

10GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Whisper JAX模型在各大评测榜单的评分

发布机构

模型介绍

Whisper是由OpenAI开源的语言识别模型,Whisper JAX则是JAX的实现版本。主要基于? Hugging Face Transformers的Whisper实现。与OpenAI的PyTorch代码相比,Whisper JAX运行速度快了70多倍,是目前最快的Whisper实现。

JAX代码兼容CPU、GPU和TPU,并且可以作为独立的运行程序(参见Pipeline Usage)或推理端点(参见Creating an Endpoint)运行。


Whisper的Flax权重文件与JAX版本的预训练结果文件完全兼容,各个版本的信息和能力如下:

模型size参数数量是否仅支持英文多语言能力
tiny3900万YY
base7400万YY
small2.44亿YY
medium7.69亿YY
large15.5亿NY
large-v215.5亿NY


官方公开的是PyTorch版本,需要先使用from_pt来将其转换成Flax版本。各个不同版本的Whisper对比结果:


Whisper发布者代码框架后端硬件1分钟10分钟1个小时
OpenAIPyTorchGPU13.8108.31001
TransformersPyTorchGPU4.5420.2126.1
Whisper JAXJAXGPU1.729.3875.3
Whisper JAXJAXTPU0.452.0113.8

上表中的1分钟、10分钟和1个小时分别代表不同模型转换这么长时间语音所需要的推断时间,单位是秒。可以看到,如果都是用GPU的话,Whisper一个小时的语音转换只要75秒,而OpenAI官方的模型需要1001秒,也就是十几分钟!如果使用TPU,那么1个小时的语音转换只要13.8秒!不得不说,谷歌全家桶的性能非常赞!


Whisper JAX模型的GitHub开源地址: https://github.com/sanchit-gandhi/whisper-jax 



Foundation Model

ControlNet

ControlNet

View Details

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat